    Construcción de un Gold Standard para la Sintaxis Superficial del Euskera

    En este artículo presentamos el proceso de construcción de SF-EPEC, un corpus de 300.000 palabras, sintácticamente anotado, que pretende ser un Gold Standard para el procesamiento sintáctico superficial del euskera. En primer lugar, describimos el conjunto de etiquetas diseñado para este propósito; siendo el euskera una lengua aglutinante, en ocasiones hemos tenido que crear etiquetas sintácticas compuestas. Asimismo, se detallan las distintas fases en la construcción de SF-EPEC.In this paper, we present the process in the construction of SF-EPEC, a 300,000-word corpus syntactically annotated that aims to be a Gold Standard for the surface syntactic processing of Basque. First, the tagset designed for this purpose is described; being Basque an agglutinative language, sometimes complex syntactic tags were needed. We also account for the different phases in the construction of SF-EPEC.PROSA-MED: Procesamiento semántico textual avanzado para la detección de diagnósticos, procedimientos, otros conceptos y sus relaciones en informes Médicos (TIN2016-77820-C3-1-R)

    Construcción de un corpus etiquetado sintácticamente para el euskera

    El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

    EUSMG: Morfologiatik sintaxira murriztapen gramatika erabiliz. Euskararen desanbiguazio morfologikoaren tratamendua eta azterketa sintaktikoaren lehen urratsak

    Hizkuntzalaritza konputazionalaren alorrean kokatzen den tesi-lan honetan hau izan da eginkizun nagusia: analisi morfologikoan oinarrituta, sintaxi arloko atal batzuk aztertzea (ezaugarri morfosintaktikoen desanbiguazioa testuinguruaren arabera, funtzio sintaktikoen esleipena eta hauen desanbiguazioa, etab.), Murriztapen Gramatika (MG) deituriko formalismoa baliatuz. Horrela, lehen mailako analisi sintaktiko azalekoaren eskakizunak betetzen dira eta azterketa sakonagoetarako zimenduak prest geratzen. @@ Ondoren, banan-banan, eduki nagusiak aipatuko ditut: @@ * Anbiguotasun morfologikoaren eta sintaktikoaren azterketa. Lehenik, euskaraz hitzen analisi morfologikoa automatikoki egiten denean gertatzen den anbiguotasun morfologiko-morfosintaktikoen azterketa zehatza egin da. Kontuan hartu behar da analisi morfologikoa zuriunetik zuriunera doan segidarena (hitzarena normalean.) egiten dela, testuingururik kontuan hartu gabe, eta horrek anbiguotasun handia sortzen duela (adibidez: gizonak hitza absolutibo plurala edo ergatibo singularra izan daiteke. Eta ote hitza, izena edo partikula). @@ Tratatzen den anbiguotasuna analisi morfologikotik eta funtzio sintaktikoen esleipenetik datorrena da. Esan bezala, hitzak isolatuki analizatzen dira, eta ondoren bakoitza testuinguru jakinen arabera desanbiguatzen da. Horrela, fase honetan, anbiguotasun morfologikoak eta funtzio sintaktikoen mailakoak tratatuko dira. Semantikoak eta pragmatikoak ez dira aztertuko, ezta egiturazkoak ere, analisilerro bakarra uzten baita esaldiko. @@ * Desanbiguazio morfologikorako eta sintaktikorako printzipioak eta erregelamultzoa. Anbiguotasun-multzo bakoitzeko desanbiguazio-erregelak sortu dira (1.113). Erregela-multzook gramatika osatzen dute eta printzipio linguistikoei erantzuten diete. @@ * Testu errealen gainean desanbiguazio morfologikoa egitean lortutako emaitzak. Corpus erreal baten gainean gramatika aplikatuta, adibidez, anbiguotasun morfologikoen interpretazio-kopurua ia erdira jaisten da, analisi zuzenen % 97.51 mantenduz. @@ * Azken emaitza. Analisi sintaktikoaren ondoren, testua morfologikoki eta funtzio sintaktikoei dagokienez ia guztiz desanbiguatua izango dugu, hau da, ia interpretazio morfologiko bakarra hitzeko eta funtzio sintaktiko bat interpretazioko. Funtzio sintaktikoek hitzen arteko interdependentziak erakutsiko dituzte, inplizituki erakutsi ere, egiturarik osatu gabe. @@ Hizkuntzaren tratamendu automatikoan estrategia luze baterako, desanbiguazio morfologikoaren modulua eta sintaxiko osagai oinarrizkoenen ezagutzea tresna ezinbestekoak bihurtu dira, analizatzaile morfologikoa den bezalaxe. Pentsatu behar da estrategia luze hori asmo handikoa dela, finean, hizkuntza-teknologiaren garapenaz ari gara eta horrek, ezinbestean, oinarriak ongi finkatuak edukitzea eskatzen d

    Pronominal anaphora in Basque: annotation of a real corpus

    En este artículo se describe el proceso de etiquetado manual de la anáfora pronominal en el corpus Eus3LB, corpus de 54.000 palabras de texto escrito en euskera etiquetado a nivel sintáctico y que servirá de base para posteriores tratamientos computacionales. Presentamos aquí el estudio lingüístico previo, los criterios de etiquetado establecidos y algunas conclusiones lingüísticas relevantes sobre las características de las relaciones entre la anáfora pronominal y su correspondiente antecedente.This paper describes the process followed in the annotation of pronominal anaphora in the Eus3LB corpus of Basque. Our aim is to use this annotation as the basis for later computational treatment of our language. We present the linguistic analysis carried out, the criteria defined for the tagging and some relevant linguistic conclusions about the features of the antecedents needed to link them correctly to their anaphoric elements

    Migración de una gramática sintáctica parcial entre dos formalismos de unificación

    Este trabajo presenta el proceso de migración de una gramática sintáctica del euskera de un formalismo a otro. Debido a diferencias en los formalismos y también en el tipo de gramáticas, la transición directa de una gramática a otra no es posible. Esto lleva a que la construcción de la nueva gramática por parte de un lingüista parta prácticamente de cero. Por ello se ha planteado, de manera paralela a la construcción manual de la gramática, un experimento consistente en derivar una gramática de manera semiautomática generando reglas partiendo de la gramática antigua y un corpus analizado con ésta. Este experimento ha servido por un lado para comprobar la viabilidad de obtener una nueva gramática de manera prácticamente automática, y a la vez ha valido para ayudar en el proceso de construcción manual de la gramática, sirviendo de punto de comparación y para detección de errores u omisiones.This work presents the migration process of a syntactic grammar of Basque from one formalism to another. Due to differences in the formalisms and the kind of grammars, it is not possible to make a direct translation. As a consequence, the construction of a new grammar by a linguist must start almost from scratch. For this reason we devised an experiment in parallel with the manual construction of the grammar, consisting in deriving several grammars semi automatically using the old grammar and a corpus analyzed with it. This experiment was useful to test the viability of obtaining a grammar automatically and at the same time also helped in the process of the manual construction of the new grammar, as the automatically obtained grammars could be compared with the manual one, and could also help to detect errors or omissions

    A corpus based morphological disambiguation tool for Basque

    This paper presents the methodology followed in the construction of a surface-based morphosyntactic parsing grammar as well as the results obtained. It is based on the Constraint Grammar formalism which we find suitable for our project of analysing unrestricted texts. Besides, we will present a description of the main types of morphosyntactic ambiguity that we have identified for Basque and the disambiguation rules designed for their treatment. This work is the first step in the computational treatment of syntax.This work is supported by a grant of the Basque Government